Например, Бобцов

Метод тестирования лингвистических моделей машинного обучения текстовыми состязательными примерами

Аннотация:

Введение. В настоящее время интерпретируемость лингвистических моделей машинного обучения неудовлетворительна в связи с несовершенством научно-методического аппарата описания функционирования как отдельных элементов, так и моделей в целом. Одной из проблем, связанной со слабой интерпретируемостью, является низкая надежность функционирования нейронных сетей, обрабатывающих тексты естественного языка. Известно, что небольшие возмущения в текстовых данных влияют на устойчивость нейронных сетей. В работе представлен метод тестирования лингвистических моделей машинного обучения на наличие угрозы проведения атак уклонения. Метод. Метод включает в себя следующие генерации текстовых состязательных примеров: случайная модификация текста и сеть генерации модификаций. Случайная модификация текста произведена с помощью омоглифов — переупорядочивания текста, добавления невидимых символов и удаления символов случайным образом. Сеть генерации модификаций основана на генеративно-состязательной архитектуре нейронных сетей. Основные результаты. Проведенные эксперименты продемонстрировали результативность метода тестирования на основе сети генерации текстовых состязательных примеров. Преимущество разработанного метода заключается в возможности генерации более естественных и разнообразных состязательных примеров, которые обладают меньшими ограничениями, не требуется многократных запросов к тестируемой модели. Это может быть применимо в более сложных сценариях тестирования, где взаимодействие с моделью ограничено. Эксперименты показали, что разработанный метод позволил добиться лучшего баланса результативности и скрытности текстовых состязательных примеров (например, протестированы модели GigaChat и YaGPT). Обсуждение. Результаты работы показали необходимость проведения тестирования на наличие дефектов и уязвимостей, которые могут эксплуатировать злоумышленники с целью снижения качества функционирования лингвистических моделей. Это указывает на большой потенциал в вопросах обеспечения надежности моделей машинного обучения. Перспективным направлением являются проблемы восстановления уровня защищенности (конфиденциальности, доступности и целостности) лингвистических моделей машинного обучения.

Ключевые слова:

Статьи в номере